En este análisis combinamos la potencia de R con un enfoque de storytelling para responder una pregunta tan intrigante como relevante: ¿Quiénes tuvieron más probabilidades de sobrevivir al hundimiento del Titanic en 1912 y por qué?. A través de una cuidadosa mezcla de texto explicativo, visualizaciones interactivas y fragmentos de código, guiaremos al lector paso a paso por el proceso de exploración de datos, asegurándonos de que cada gráfica y cada transformación refuercen la narrativa central.
En la madrugada del 15 de abril de 1912, el lujoso transatlántico Titanic se hundió tras chocar contra un iceberg en el Atlántico Norte. De los 2 224 pasajeros que viajaban en sus diversas cubiertas, tan solo unos pocos lograron salvarse. Este trágico suceso no solo marcó un hito en la historia naval, sino que dejó un legado de preguntas sobre cómo factores sociales y económicos determinaron quién tenía acceso a los botes salvavidas.
Nuestro objetivo en este informe no es solo reproducir cifras, sino entender la historia que cuentan los datos. Queremos responder a la gran pregunta:
¿Qué combinaciones de clase social, género, edad, precio del boleto y puerto de embarque estuvieron asociadas con mayores probabilidades de supervivencia?
Para guiar este recorrido, planteamos tres hipótesis iniciales:
Clase social: los pasajeros de primera clase tuvieron mejores tasas de supervivencia que los de segunda y tercera.
Género: las mujeres —y particularmente las mujeres acompañadas de niños— fueron favorecidas en los procedimientos de evacuación.
Edad y tarifa: los niños y quienes pagaron tarifas más altas disfrutaron de una ventaja, tanto por protocolos de rescate como por ubicar sus camarotes más cerca de las cubiertas superiores.
A lo largo del análisis exploraremos estas hipótesis mediante una serie de visualizaciones que mostrarán, de manera unidimensional, bidimensional y multidimensional, cómo cada factor individual y sus interacciones influyeron en el desenlace de esta tragedia.
En esta sección presentamos de forma clara la naturaleza y alcance del conjunto de datos que sustenta nuestro análisis. El archivo tested.csv contiene registros de 891 pasajeros del Titanic, con variables demográficas, socioeconómicas y de embarque. Comprender su estructura y calidad es clave para interpretar correctamente las visualizaciones que veremos más adelante.
¿Qué encontramos al inspeccionar estos datos?
Survived: indicador binario de supervivencia (0 = no, 1 = sí).
Pclass: clase del pasaje (1 = Primera, 2 = Segunda, 3 = Tercera).
Name, Sex, Age: información personal del pasajero.
SibSp, Parch: número de hermanos/cónyuges o padres/hijos a bordo.
Ticket, Fare, Cabin: detalles del billete, precio pagado y cabina asignada.
Embarked: puerto de embarque (C = Cherburgo, Q = Queenstown, S = Southampton).
Para asegurar la fiabilidad de nuestro estudio, evaluaremos también el porcentaje de valores faltantes en variables críticas:
Edad (Age): aproximadamente 20 % de los registros sin datos.
Cabina (Cabin): más del 70 % ausente, por lo que lo usaremos con cautela.
Puerto de embarque (Embarked): solo unos pocos valores faltantes.
Es importante aclarar que la falta de algunos valores podrían afectar la visualizacion estadística de los datos, por lo cual cados como “Cabina” que presentan solo un 30% de informacion, podrían no ser tan importantes de cara a evidenciar relaciones entre las variables.
A continuación cargamos los datos.
Una vez cargados los datos en bruto, el primer paso es explorar cada variable de forma individual para entender su distribución y detectar posibles sesgos o valores atípicos. A continuación presentamos tres visualizaciones que nos ayudan a “conocer” mejor a los pasajeros antes de cruzar información entre variables.
La edad de los pasajeros muestra un amplio rango, desde recién nacidos hasta ancianos. Al graficar un histograma con 30 intervalos, podremos identificar si existen concentraciones en determinados grupos etarios (por ejemplo, presencia de muchos niños pequeños o predominio de adultos jóvenes). Esta visión inicial es fundamental para decidir si, más adelante, es necesario imputar valores faltantes o agrupar la variable en categorías (niños, adultos, ancianos).
- ¿Se forma un “pico” alrededor de los 20–30 años?
- ¿Hay un subgrupo notable de menores de 10 años o de mayores de 60?
- ¿Qué proporción de la muestra carece de dato de edad y podría afectar análisis posteriores?
El género es un factor crítico para entender las decisiones de evacuación. Un gráfico de barras nos mostrará la proporción de hombres y mujeres abordo, sin mezclarlos aún con la supervivencia. Con este conteo simple confirmamos si existe un desequilibrio de género en la muestra, lo cual podría sesgar las tasas de supervivencia si, por ejemplo, hubiera muchos más hombres que mujeres.
- ¿Cuál es la proporción aproximada de hombres vs. mujeres?
- ¿Existe alguna categoría de género no habitual o datos faltantes?
- ¿Cómo podría este desequilibrio inicial influir en las comparaciones posteriores?
El precio del boleto (Fare) es otra dimensión
unidimensional clave. Al graficar un histograma con 30 “bins”,
observaremos la dispersión de tarifas, desde los boletos más económicos
hasta los de lujo extremo. Una distribución muy sesgada hacia valores
bajos, con colas largas de valores altos, indicaría la necesidad de usar
escalas logarítmicas o agrupar tarifas en rangos para facilitar la
interpretación.
- ¿La mayoría de pasajeros pagó una tarifa baja (por debajo de USD 20)?
- ¿Cuántos boletos superan los USD 100 o USD 200?
- ¿Es recomendable transformar la variable para análisis posteriores (por ejemplo,
log(Fare + 1))?
Para profundizar en cómo interactúan dos variables clave con la supervivencia, presentamos a continuación dos visualizaciones que combinan información de clase, edad, tarifa y resultado (sobrevivió o no). Estas gráficas bidimensionales nos permiten ver, de un vistazo, patrones que no aparecen al analizar cada variable aisladamente.
Este gráfico de barras apiladas y normalizadas muestra la proporción de pasajeros que sobrevivieron en cada una de las tres clases sociales.
- ¿Qué porcentaje de pasajeros de Primera clase sobrevivió en comparación con Segunda y Tercera?
- ¿Existe una clara brecha entre clases alta y baja que confirme la “prioridad” de embarque?
- ¿Cómo influyen factores económicos (precio del ticket) en esta proporción?
En esta nube de puntos coloreada por supervivencia, cruzamos edad (eje X) y tarifa pagada (eje Y), para ver si hay una tendencia conjunta entre quién pagó más y quién era más joven.
- ¿Se observa que los sobrevivientes tienden a tener tarifas más altas?
- ¿Qué rango de edad muestra mayor densidad de puntos de color “sobrevivió”?
- ¿Aparecen grupos diferenciados (por ejemplo, niños de tarifa baja vs adultos de tarifa alta)?
Para profundizar aún más, combinamos la categoría de grupo etario (“Niños”, “Adultos”, “Adultos mayores”) con la clase de pasaje (1ª, 2ª, 3ª) y el resultado de supervivencia.
Más allá de dos variables, el gráfico de burbujas añade un tercer y
cuarto componente: el tamaño de la burbuja representa
la clase (Pclass) y el color indica
supervivencia. Esto nos permite identificar “clusters” de pasajeros con
características similares.
- ¿Las burbujas más grandes (Primera clase) se agrupan en zonas de tarifas altas y mayor sobrevivencia?
- ¿Existen burbujas pequeñas (Tercera clase) en la zona de baja tarifa que indiquen supervivientes “atípicos”?
- ¿Cómo se distribuye la edad dentro de cada nivel de clase y supervivencia?
Para estudiar cómo interactúan tres variables al mismo tiempo, usamos
facetas que organizan la nube de puntos Edad vs Tarifa
según el puerto de embarque (filas) y el sexo (columnas). Con
scales = "free", cada panel ajusta sus ejes de forma
independiente para resaltar las variaciones locales.
- ¿Los pasajeros de Cherburgo pagaron tarifas sistemáticamente más altas que los de Southampton o Queenstown?
- ¿Cómo varía la dispersión de edades entre hombres y mujeres en cada puerto?
- ¿Hay paneles con muy pocos datos donde debamos tener cuidado al interpretar?
Para cerrar el análisis con un resumen visual poderoso, combinamos
tres gráficos interactivos en un solo lienzo mediante
subplot de plotly. Cada panel aporta una
dimensión distinta al storytelling:
- FigA destaca la desigualdad de género en el acceso a botes.
- FigB revela si los niños o ancianos recibieron prioridad.
- FigC muestra la correlación entre tarifas altas y tasas de rescate.